{
 "cells": [
  {
   "cell_type": "code",
   "execution_count": 1,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "2003"
      ]
     },
     "execution_count": 1,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "import json\n",
    "\n",
    "with open('indon-words-socialmedia.json') as fopen:\n",
    "    indon_words_socialmedia = set(json.load(fopen))\n",
    "    \n",
    "len(indon_words_socialmedia)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 3,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "10622788"
      ]
     },
     "execution_count": 3,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "with open('ms-socialmedia.json') as fopen:\n",
    "    socialmedia = json.load(fopen)\n",
    "    \n",
    "len(socialmedia)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 4,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "1430542"
      ]
     },
     "execution_count": 4,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "with open('en-socialmedia.json') as fopen:\n",
    "    en_socialmedia = json.load(fopen)\n",
    "    \n",
    "len(en_socialmedia)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 5,
   "metadata": {},
   "outputs": [],
   "source": [
    "from tqdm import tqdm\n",
    "\n",
    "def filter_strings(strings):\n",
    "    filtered = []\n",
    "    for i in tqdm(range(len(strings))):\n",
    "        if len(set(strings[i].split()) & indon_words_socialmedia):\n",
    "            filtered.append(strings[i])\n",
    "    return filtered"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 6,
   "metadata": {},
   "outputs": [],
   "source": [
    "import cleaning"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 7,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|██████████| 663924/663924 [00:01<00:00, 397785.63it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 393126.35it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 404778.31it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 387843.42it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 407176.90it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 399253.24it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 402079.36it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 396536.18it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 414335.18it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 399042.69it/s]\n",
      "100%|██████████| 4/4 [00:00<00:00, 18620.66it/s]893.67it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 305827.93it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 303187.84it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 305110.11it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 307931.50it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 279704.69it/s]\n",
      "100%|██████████| 663924/663924 [00:06<00:00, 105721.16it/s]\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "CPU times: user 4.12 s, sys: 3.22 s, total: 7.34 s\n",
      "Wall time: 14.1 s\n"
     ]
    }
   ],
   "source": [
    "%%time\n",
    "\n",
    "filtered = cleaning.multiprocessing(socialmedia, filter_strings)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 8,
   "metadata": {},
   "outputs": [],
   "source": [
    "def filter_strings_notin(strings):\n",
    "    filtered = []\n",
    "    for i in tqdm(range(len(strings))):\n",
    "        if not len(set(strings[i].split()) & indon_words_socialmedia):\n",
    "            filtered.append(strings[i])\n",
    "    return filtered"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 9,
   "metadata": {},
   "outputs": [
    {
     "name": "stderr",
     "output_type": "stream",
     "text": [
      "100%|██████████| 663924/663924 [00:01<00:00, 386105.18it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 390073.59it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 404580.36it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 401762.74it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 377549.00it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 394782.28it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 403229.76it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 395287.81it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 384955.97it/s]\n",
      "100%|██████████| 663924/663924 [00:01<00:00, 392629.54it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 313861.07it/s]\n",
      "100%|██████████| 4/4 [00:00<00:00, 21760.33it/s]478.89it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 298531.62it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 294838.11it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 296480.35it/s]\n",
      "100%|██████████| 663924/663924 [00:02<00:00, 268638.31it/s]\n",
      "100%|██████████| 663924/663924 [00:06<00:00, 107442.37it/s]\n"
     ]
    },
    {
     "name": "stdout",
     "output_type": "stream",
     "text": [
      "CPU times: user 4.8 s, sys: 4.37 s, total: 9.18 s\n",
      "Wall time: 15.2 s\n"
     ]
    }
   ],
   "source": [
    "%%time\n",
    "\n",
    "filtered_notin = cleaning.multiprocessing(socialmedia, filter_strings_notin)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 10,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "(2408498, 8214290)"
      ]
     },
     "execution_count": 10,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "len(filtered), len(filtered_notin)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 11,
   "metadata": {},
   "outputs": [],
   "source": [
    "filtered = list(filter(None, filtered))\n",
    "filtered_notin = list(filter(None, filtered_notin))"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 12,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['ternyata kl lg sdih bisa ngasilin makanan enak',\n",
       " 'abu kampret',\n",
       " 'bapa saya suka pake oppo saya sukanya nokia kaka saya sukanya samsung yg penting punya hape aja',\n",
       " 'ngelamar kasih cincin tp kok mukanya songong ya sedih gue liatnya',\n",
       " 'caption iki nggarai uwong males nikah min ya kali manusia arep punah ngunu neg gak nikah',\n",
       " 'pertanyaannya sederhana jika kami memang dukung prabowo ngapain selama kampanye kemarin capek dukung jokowi sampa',\n",
       " 'untuk mengamankan suara partai ahmad rofiq selaku sekjen partai perindo meminta kepada seluruh caleg dan struktur',\n",
       " 'dom jakpus sih bebas mau ketemuan or shopee',\n",
       " 'bisa dapet duit ini kaga punya mobil juga kan kaya gemer gemer ini kaga',\n",
       " 'valentino rossi tidak setuju kompetisi motogp dimulai dari eropa',\n",
       " 'martabak terang bulan martabak untuk yg asin gurih a k a martabak telor terang bulan untuk yg manis yg gw s',\n",
       " 'tidur di ubin biar ga jatoh lg',\n",
       " 'benersi ga buka sm yg minyak aka gorengan amp makan nasi tapi abis pudding setengah lingkaran makannya mi trs ishy',\n",
       " 'hahahahha bahaya bela kucing comel ni sebab nnti hilang kena curi',\n",
       " 'pak prabowo itu vibesnya kebun binatang banget ya peliharaannya kucing sukanya naek kuda kemana mana pake baju safari',\n",
       " 'makan serabi enak pas lagi panas serabinya terbuat dari kelapa neng tasya aa ikhlas',\n",
       " 'siapapun orangnya meski dia ustadz bersorban dan berjubah putih klo sdh k',\n",
       " 'loh kenapa kan marga oppa juga lee pasti enak yaudah oppa jalan jalan dong biar bisa liat pemandangan',\n",
       " 'ada apa yaa mbak mbak plat ag inii',\n",
       " 'still sedihbgt kebayang kan betapa sedih lu gak tau gimana lu di waktu tahun tahun thn dan seteru',\n",
       " 'iyaaa gue di hima periode ditambah malamnya gue rapat atau latihan ukm jadi kalo mau nongkrong bisanya jam keatas',\n",
       " 'bangga manfaat dilan perputaran uang yg mendukung pertumbuhan ekonomi mikro makro mengurangi pengangguran',\n",
       " 'pgn chatime xixi tp jauh',\n",
       " 'apaan rambut item',\n",
       " 'senin april kita memperingati hari bumi bumi kita saat ini lagi menjerit kesakitan karena dirusak untuk m',\n",
       " 'waduuh kamu dengerinnya sambil minum',\n",
       " 'rasa rasanya kalo lg gapunya duit gini nemu duit recehan yang nyelip dikantong celana atau nemu duit kerincingan',\n",
       " 'saya udah sering banget ngadepin jalanan macet di jakarta tapi sejauh ini yg paling anjing sih semuanya',\n",
       " 'twitter please do ur magic ini pertama kali nyah gua ngajak jalan dia karna selama bertahun tahun dia kuliah di j',\n",
       " 'uni kenapa sistem masuk sekolah ke tingkat lanjutan terlalu susah skr in',\n",
       " 'kph ujung tombak pendukung visi misi gubernur kalbar dengan mengoptimalkan tugas dan fungsi pokok kesatuan peman',\n",
       " 'gue baru bangun juga lagi males pergi mana rumah gue kek kapal pecah utg kaga main twitter tmn gue zwoakowka kalo ga udh diciduk',\n",
       " 'legenda sepak bola brasil pele sudah bisa pulang dari rumah sakit setelah pulih dari infeksi saluran kemih pele',\n",
       " 'liat bangchan jongin sama han jisung auto netes mami nakkkk akhirnyaaaa',\n",
       " 'bukan telen ajer yg ada kapal terobang dekat local route pun ada laaaa',\n",
       " 'masuk kerja masi lama yaaa bete nih kangen kulineran di samarinda apalah daya rumah di desa',\n",
       " 'ugh tolonglah lelaki yang senyum miang dengan perempuan ni fikir perempuan suka ka kamu buat camtu creepy as fuck macam aku mau maki ja kau',\n",
       " 'pengadilan tinggi dki sunat masa tahanan lucas jadi tahun kpk pertimbangkan',\n",
       " 'ganggu aja ih pdhl lg enak enak di urut',\n",
       " 'terbangun tengah malam melihat kesebelah kanan ternyata masih kosong ada yg mau nemenin gak',\n",
       " 'ubi cilembu enak bngt btw kl dipanggang',\n",
       " 'duuhhh ini apaan sik eklusivisme bgt sama pingin shalat aja seolah mereka enggan bercampur dgn yg tdk sepenam',\n",
       " 'saking kangen papanya pas vc anakku nangis',\n",
       " 'makian paling pedes yang emak pernah bilang ke gue masih mending piarain anjing daripada piarain elu seketika',\n",
       " 'teman universitas ahmad dahlan yogyakarta hari ini melaksanakan simulasi dan latihan evakuasi mandiri menjelang h',\n",
       " 'siapa juga ya butuh sama elo zul kalok gak mau patuhi pemerintah minggat dah dari indonesia nyusul yg di arab sono',\n",
       " 'baru mau mandi niih makasii kamu juga ya',\n",
       " 'sayang itu sering ngajak jalan traktir makan chat cepat balasnya bukan karna pengen hs baru ngajak jalan',\n",
       " 'yakin nga nih sari buah kurmanya asli nanti malah kayak keyakinan dia palsu huwaaa coba deh nanti gue',\n",
       " 'pelaku umur tahun itu sudah cukup dewasa apa lg sudah dapat ktp',\n",
       " 'menyesal nda ambil postpaid maxis dlu',\n",
       " 'sekar follback dums',\n",
       " 'heh gawa duit ra nyilih sik tah ora gawa e tenane lha sumpah melihat kebodohan anak sma se',\n",
       " 'gua jd enak bacanya mak bisa aja mamak gua belom baik kok mak jauh dr kata baik tp lg usaha jd org baik',\n",
       " 'cont tidak menggunakan mobil bisa bisa sang dara akan berpikiran yang tidak tidak keep low profile aaron sang',\n",
       " 'iyaa teh akhirnya kepake juga wkwk',\n",
       " 'cara ini ga akan sustainable liat aja udh separah apa ketimpangan penduduk baik kepadatan sampe ku',\n",
       " 'kalo kartu perdana xl nya perdana kuota gabisa ya',\n",
       " 'mon maap aku ngakak',\n",
       " 'langkah menaikkan gaji pns sebesar dinilai sebagai langkah yang tidak konsisten oleh tim hukum',\n",
       " 'ini dia tips and trick ngopi di bulan ramadhan jangan lupa minum air putih yang banyak yah bruh dan jangan lupa',\n",
       " 'gpp wa tangan kanan kiri masi blm cedera kan',\n",
       " 'di warung nasi masih ada aja jokes minumnya es teh anget orangnya ketawa tapi si ibunya kaga',\n",
       " 'ayo makan dutian lagi yuk tapi ndak usah ajak bisa pingsan dia d',\n",
       " 'dulu poskod kita sekarang dah jadi warga kamunting poskod kita lah pulek hiks',\n",
       " 'dia ketawa trs nyemangatin gini kamu hrs dpt org yg bener cinta sama kamu jgn sugar daddy donk ok sip agustu',\n",
       " 'dahsyat rp miliar dlm kardus amplop berisi uang tunai pecahan rb dan rb yg diduga akan dipakai b',\n",
       " 'umume wong lanang wkwk',\n",
       " 'w yang bru lancar korea doank jepang cina belom lancar tp tipsnyaaa banyakin nonton film atau drama',\n",
       " 'halah nggolet manuk apa meng airin koe aja lembo',\n",
       " 'shit ketawa aku',\n",
       " 'gapapa kamu suka beli alat elektronik merk lg kok',\n",
       " 'sebelum becrita psl urg lain why not liat cermin lu supaya bfikir kali kn bcrita kh inda and yg penting supaya sedar diri',\n",
       " 'kalo butuh grafir money clip zippo dan sejenisnya bisa kontak ai ya gue kalo ngasih cowok custom zippo',\n",
       " 'iya yg rambut pendek kaya pemeran utama gicu lanjut gilaa ini bagus banget',\n",
       " 'kondisi psikologis setiap orang beda tergantung depresi nya sampe tahap apa sebagai yang pernah mengalami membu',\n",
       " 'biasanya sih kalau lagi beruntung bisa nemu kacang mete auto sembunyikan',\n",
       " 'bokep abg cantik sange dientot pacar cabul',\n",
       " 'syukur itu adlh menggunakan nikmat allah sesuai hikmah penciptaannya agama hadir untuk membantu kita memahami hikm',\n",
       " 'paan dah noy wkwk iya udh itu disalamin sama bocahnya',\n",
       " 'ya allah pengen gigitt',\n",
       " 'aku sih setuju sm sistem zonasi jadi sekolah di sekitar lingkungan rumah hbs itu jadi menyama ratakan sekolah jad',\n",
       " 'hahaha kan klu ada org bahan kita jwb siang eekk ellehhh kau siapa',\n",
       " 'lelahku semoga mbawa keuntungan kemudian nnt',\n",
       " 'ga jd maling krn bakal curiga perampokan jadi bawa tabung gas di buka isinya taro di deket pintu kamar',\n",
       " 'cont jejalan problematika di hadapan seharusnya taura mengantongi segenggam pertimbangan daripada secarik intui',\n",
       " 'apa perlu aku putar ulang kejadian saat kita liat chatime engga kan',\n",
       " 'gws bro',\n",
       " 'ini bisa di ukur dari seberapa bersyukurnya kita dalam menjalani hidup semakin banyak bersyukur semakin banyak',\n",
       " 'kalo divideonya tetep chiko mb karna katanya hilang ruang buat cinta yg lain kalo kisah nyata saya sih tai kucing',\n",
       " 'keindahan di hari pemilu adalah ketika melihat para bidadari komplek pada keluar rumah untuk nyoblos',\n",
       " 'maklumin lagi di hutan rimba bersama temen kamu wkwk',\n",
       " 'mantep btul ayo mumpung lg hjan',\n",
       " 'selama ni sebat guna beg aku semakkan brg dalam beg aku tu kt meja amik baju aku almari semak sbb lepas da pilih',\n",
       " 'aku tau itu masa aktifnya sehari aku pikir mah pubg ngabisin kuota banyak makanya aku beli',\n",
       " 'ya kali saking kobamnya sama bangtan gak bisa bedain bentuk dan ukuran benda juga',\n",
       " 'golkar diketahui akan menggelar munas pada desember nanti',\n",
       " 'iya pdhl cantik gt tp masi blg kentang',\n",
       " 'ga nyesel gw dulu sering ngebentak dia ngatain dia kebun binatang segala isi hewan ternak pas tau busuknya gimana heheh',\n",
       " 'aku juga bingung kenapa betah disini mungkin karena gak ada tempat pelarian lagi selain disini kalo gaada']"
      ]
     },
     "execution_count": 12,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "filtered[:100]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 13,
   "metadata": {},
   "outputs": [
    {
     "data": {
      "text/plain": [
       "['memiliki sedikit iman lebih berharga dari pada memiliki segudang emas',\n",
       " 'on jadahnyaaa in sorry bad english hihuheheho',\n",
       " 'sis tak faham apa yang mungkin ini puncanya tu',\n",
       " 'dia dah tua put dah nak plus dia tak start regularly kat man utd so mesti ka',\n",
       " 'sejarah susah',\n",
       " 'loop in nama dlm email pon boleh jd issue dah org email aku reply all jelaaa ade mase pulak aku nak tengok satu nama recipients',\n",
       " 'tak sakit pun tapi saja nak bau minyak freshcare sbb bau lavender',\n",
       " 'rosmah',\n",
       " 'bila kau tengah feeling lagu raya',\n",
       " 'kekasih bayangan',\n",
       " 'hidup ni jgn terlalu nk mendongak ke atas nanti jatuh padan muka kau',\n",
       " 'pak kim',\n",
       " 'di rumah ga liat pohon kelapa sama nanas kan apalagi pohon pisang',\n",
       " 'wkwk',\n",
       " 'kanan sja bu',\n",
       " 'tak pon sebelum masuk dapur bagi salam dulu kan molek gitu',\n",
       " 'hilang nyawaku aku tgk',\n",
       " 'masuk ke channel bang evan ke ni',\n",
       " 'yg minat saya pon bole lekk',\n",
       " 'yer lah sbb sombong mmg lah',\n",
       " 'nti aku tengok dulu tiket dari kl pukul berapa ada nahh',\n",
       " 'ni pukul berapa tah nak sampai ukm tetiba jalan tutup pulak kena lalu jalan jauh',\n",
       " 'tkpe hehe asalkan effort ada',\n",
       " 'kenapa kipas number pun sejuk kalau bilik aku sorang ni aku dah tutup',\n",
       " 'google cabut lisensi android huawei bagaimana nasib honor tekno',\n",
       " 'dari semalam tak tidur lagi ek ni kejap lagi jangan leceh nampak tilam bantal confirm nyenyak punya',\n",
       " 'guys tolong rt tweet ni sampai owner dia dapat phone ni tertinggal kat belakang teksi pakcik saya model oppo r s',\n",
       " 'jujur kacang ijo',\n",
       " 'sahur tengah malam kaya nya enak ya',\n",
       " 'jenis jenis orang stalking di media sosial pakai akun palsu pakai akun temannya sanak saudaranya handai tau',\n",
       " 'aku ada motor racing aku bawa ronda awek lu bonceng sedar sedar seluat tkde dah punca mat rempit takboleh rap',\n",
       " 'nak happiness bkn pegih ngn laki lain happiness it s between u and me bedek uh kau ckp takda happiness ss sem',\n",
       " 'kanan',\n",
       " 'nak mee kari nak sate nak laksa nak bihun sup nakkkkk semuaaaaa',\n",
       " 'jadi lumba lumba',\n",
       " 'drpd lahir sampai sekarang aku asyik ngantuk je',\n",
       " 'dah tak kasi lampu ijo loh tinggal pepet to cuk hwhw',\n",
       " 'kecewa',\n",
       " 'batok kelapa menjadi bara terbakar semua tidak tersisa wahai saudara seiman senegara saya ucapakan selamat puas',\n",
       " 'jy liner jgak ke',\n",
       " 'ada benda mcm kotor mcm air susu atas kereta mcm ada org campak mula ingat mcm taik burung tp lain mcm',\n",
       " 'air koroi',\n",
       " 'ilmu perpustakaan point kuliah ttg manajemen perpustakaan literasi informasi teknologi informasi',\n",
       " 'ajax spurs lah anti menstrim',\n",
       " 'abis telan biji durian kali',\n",
       " 'gaya hidup sihat delayed',\n",
       " 'lia pulang mereka semuanya pedo kecuali aku jangan mau',\n",
       " 'bangun lambat lepas tu jalan jem gile haihhhh so stressss',\n",
       " 'nice igstory harini dah tak nmpak org repost sudan meal project tu',\n",
       " 'gone apa gitu je laa sendu sorang',\n",
       " 'bukan pola pikir seorang profesor hukum tapi cara berpikir seorang pedagang cendol',\n",
       " 'sobatani sebagai upaya meningkatkan generasi petani kementan membuat terobosan dengan mengubah sekolah tinggi pen',\n",
       " 'beomgyu ngambilin confetti yang nyangkut di rambut jimin dong liat gini aja soft akutuh cha',\n",
       " 'eh hello bosan tu sbb kau xmenghayati hahaha',\n",
       " 'crash on lebuhraya damansara puchong putrajaya amp cyberjaya still delaying traffic m more than usual',\n",
       " 'anjing lagi having sex gitu kak',\n",
       " 'i m at csf computer exchange cx in cyberjaya selangor darul ehsan w',\n",
       " 'clip percutian yang menarik haruslah dipadankan dengan tempat rare dan istimewa berlatar belakangkan gunung santubong dan berhadapan dengan laut china selatan oh indahnya dunia jom follow instagram kami',\n",
       " 'alhamdulillah hari ni iftar nasi kerabu ayam madu kak yong n laksam buat kali terakhir sebab kak aini last da berju',\n",
       " 'hi baby baru bangun baby emo',\n",
       " 'jum cuckoo bersama nabil ahmad',\n",
       " 'nikammy',\n",
       " 'resort datuk jhon gani kuala penyu boleh bawa keluarga santai saja tempatnya pantai nya bersih dan indah tenan',\n",
       " 'krisis perlembagaan kedua bermula balik dgn orang sama dgn',\n",
       " 'bagi saya diusia an kata jahat bukan lagi sesederhana mainan yang dirampas atau buku pr yang dirobek teman j',\n",
       " 'lapor arah demak tersendat dari tambak lorok wib dan sekarang di terminal terboyo masih rendet',\n",
       " 'aku sedih ni tak ada siapa nak hiburkan ke',\n",
       " 'bts at rose bowl day jadi mulai hari ini aku akan berusaha menjadi dokter strange karena cincin ini',\n",
       " 'katak kensel ni kain sal kah',\n",
       " 'hareeeeeiiiiiii depa ni pasang lagu ku tunggu janda mu',\n",
       " 'sedih hidup u sis',\n",
       " 'serabut pale laa dia buat mcm kita nie kerja dh gaji puluh ribu',\n",
       " 'awkwardnya upload gmbr muka sendiri',\n",
       " 'ah hulur itu begini toh penampakkannya ekwkwkwk',\n",
       " 'junior curi tarahal',\n",
       " 'up balik preloved rm belum termasuk postage tambah rm rm sm ss k baju kurung pa',\n",
       " 'i m at menara axis in petaling jaya selangor',\n",
       " 'nikmat hdi index kesejahteraan negara masy terjun bebas ekonomi mandek hutang ln ga kebayar nikm',\n",
       " 'bukan sengaja nak samakan tapi tu laaa dah ter sama kan obvious okayyy',\n",
       " 'muda nak merenyam tampaq satgi',\n",
       " 'tula konfius aku tak reti sangat benda ni ada kata kiri ada kata kanan sebab aku takselesa tidur tegak jeee',\n",
       " 'skrg terbukti kau yng bawa perempuan masuk hahahaha kantoi bodoh je',\n",
       " 'buka puasa ngemilnya pepaya pepaya dipetik di kebun bu anya cukup sekian pantun dari saya semoga',\n",
       " 'usually aku rimas tngok parking kiri kanan tapi untuk time raya diberi excuse seronok plak tngok kereta parking penuh satu laman rumah',\n",
       " 'membadik restoran in johor bahru johor',\n",
       " 'kau ke fad',\n",
       " 'kasus riil follower ai yang hampir kena scam suatu klinik waktu berobat erosi serviks akhirnya ke rumah sakit da',\n",
       " 'bolehhhh hehehe',\n",
       " 'perlu hijrah sebentar dari sini untuk menenangkan jiwa seperti liburan ditengah hutan mungkin',\n",
       " 'terok benar neh',\n",
       " 'hahahahah aku tk percaya ayat ni',\n",
       " 'ore kato sohor yolo ko kedai mee celup botak',\n",
       " 'allahumma aamin jom kita g sesama pulak ehh',\n",
       " 'namanya kaya kuota internet',\n",
       " 'tu la sambil hahaha in shaa allah cuba lagi nanti',\n",
       " 'bukan perempuan je',\n",
       " 'hospital = sedih sebak insaf sakit',\n",
       " 'mari sapo hok ado pubg tu barbar blh camper pon blh loghat klate sabah lancar sjaa loghat lain antam sjaaa',\n",
       " 'yaaaa inii betull hahaja',\n",
       " 'ugh getah rambut hilang']"
      ]
     },
     "execution_count": 13,
     "metadata": {},
     "output_type": "execute_result"
    }
   ],
   "source": [
    "filtered_notin[:100]"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 14,
   "metadata": {},
   "outputs": [],
   "source": [
    "with open('filtered.json', 'w') as fopen:\n",
    "    json.dump(filtered, fopen)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": 15,
   "metadata": {},
   "outputs": [],
   "source": [
    "with open('filtered_notin.json', 'w') as fopen:\n",
    "    json.dump(filtered_notin, fopen)"
   ]
  },
  {
   "cell_type": "code",
   "execution_count": null,
   "metadata": {},
   "outputs": [],
   "source": []
  }
 ],
 "metadata": {
  "kernelspec": {
   "display_name": "Python 3",
   "language": "python",
   "name": "python3"
  },
  "language_info": {
   "codemirror_mode": {
    "name": "ipython",
    "version": 3
   },
   "file_extension": ".py",
   "mimetype": "text/x-python",
   "name": "python",
   "nbconvert_exporter": "python",
   "pygments_lexer": "ipython3",
   "version": "3.8.10"
  },
  "vscode": {
   "interpreter": {
    "hash": "31f2aee4e71d21fbe5cf8b01ff0e069b9275f58929596ceb00d14d90e3e16cd6"
   }
  }
 },
 "nbformat": 4,
 "nbformat_minor": 2
}
